本文报告了在应用多维缩放(MDS)技术中以创建语言研究中的语义地图的最先进。 MDS指的是一种统计技术,其表示对象(词汇项,语言上下文,语言等)作为空间中的点,使得对象之间的密切相似性对应于表示表示中的对应点之间的距离。我们专注于使用MDS与在跨语言变异研究中使用的并行语料库数据相结合。我们首先介绍了MD的数学基础,然后略微概述过去的研究,采用MDS技术与并行语料库数据结合使用。我们提出了一组术语,以简便地描述特定MDS应用程序的关键参数。然后,我们表明,这种计算方法是理论中立的,即它可以用来在各种语言理论框架中回答研究问题。最后,我们展示了这在语言学中的MDS研究中的两条发展程度的发展。
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
在基本层面上,大多数物理方程式都是时间可逆的。在本文中,我们提出了一个在离散计算级别保存该属性的集成商。我们的模拟可以向后和向后运行,并准确地追踪相同的路径。我们通过使用固定和浮点算术的混合来实现理论上可逆的集成器来实现这一目标。我们的主要应用程序是在优化中使用的伴随方法中有效地实现反向步骤。我们的集成商在差分模拟和机器学习(反向传播)中具有应用。
translated by 谷歌翻译
互补的时尚推荐旨在识别来自不同类别(例如衬衫,鞋类等)的项目,这些项目“很好地融合在一起”是一件服装。大多数现有方法使用包含手动策划的兼容项目组合的标记的Outfit数据集学习此任务的表示形式。在这项工作中,我们建议通过利用人们经常穿兼容服装的事实来学习从野外街头时尚图像进行兼容性预测的表示形式。我们制定的借口任务是使同一个人所穿的不同物品的表示形式与其他人所穿的物品相比更接近。此外,为了减少推理期间野外和目录图像之间的域间隙,我们引入了对抗性损失,以最大程度地减少两个域之间特征分布的差异。我们对两个流行的时尚兼容性基准进行了实验 - 多视频和多视频搭配服装,并优于现有的自我监督方法,在跨数据库环境中尤其重要,在跨数据库设置中,训练和测试图像来自不同来源。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
自然语言生成模型的力量引起了一种对自动方法的兴趣,以检测一段文本是人类或机器撰写的。到目前为止的问题已经以标准的监督方式框架,包括培训关于注释数据的分类器,以预测一个给定新文档的起源。在本文中,我们以无监督和分配方式框架问题:我们假设我们可以访问大量未经发布的文件,其中一大部分是机器生成的。我们提出了一种方法来检测利用重复高阶n-gram的那些机器生成的文件,我们在与人类中相比,我们在机器生成的文本中显示出来。弱信号是自我训练设置的起点,其中伪标记的文档用于培训分类器的集合。我们的实验表明,利用该信号使我们能够准确地对待可疑文件。对于Top-K采样策略,5000的精度超过90%,核心采样超过80%,我们使用的最大型号(GPT2-大)。模型大小增加的下降很小,这可能表明结果适用于其他当前和未来的大型语言模型。
translated by 谷歌翻译
最近已被证明大型语言模型在各种任务集中获得合理的零射普通化(Brown等,2020)。它已经假设这是语言模型的隐式多任务学习的结果,在语言模型中的预押(Radford等,2019)。可以通过明确的多任务学习直接引起零拍常规化?为了以缩放测试这个问题,我们开发一个系统,以便轻松地将任何自然语言任务映射到人类可读的提示表单中。我们转换一组大量的监督数据集,每个数据集都有多个提示,具有不同的措辞。这些提示的数据集允许基准测试模型执行完全看不见的任务的能力。我们介绍了一个普拉克尔编码器 - 解码器模型(Raffel等,2020; Lester等,2021),覆盖各种任务。该模型在多个标准数据集中达到强大的零点性能,通常优于其尺寸的型号超过16倍。此外,我们的方法对来自Big-替补基准测试的任务子集具有强烈性能,优于其尺寸的6倍。所有提示和培训的型号都可以在https://github.com/ bigscience-workshop / protectsource / httpsource / https://huggingface.co/bigscience/t0pp。
translated by 谷歌翻译